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基于 LSTM 的 复杂 炼 化 过 程 报警 预测 


韩 家 祺 1 
(北京 化 工大 学 机 电工 程 学 院 1) 

摘要 : 近年 来 ， 随 着 我 国 炼 化 行业 与 信息 技术 的 深入 融合 与 飞速 发 展 , 复杂 炼 化 系统 所 产生 的 数据 呈现 爆炸 性 增 
长 。 报警 系统 是 一 类 用 于 向 操作 者 传递 设备 异常 状态 信息 的 监控 系统 ; 一 旦 设计 不 合理 , 设备 在 异常 状态 下 可 能 
产生 大 量 的 过 程 报警 甚至 报警 饱和 的 现象 , 严重 影响 操作 者 的 信息 处 理 能 力 , 从 而 增加 各 种 工业 事故 的 发 生 概 
率 。 报警 信息 能 够 对 复杂 炼 化 过 程 给予 正 向 的 指导 , 因此 如 何 从 海量 的 报警 日 志 中 挖掘 有 价值 的 信息 非常 重要 。 
深度 学 习 是 一 种 能 够 自动 地 从 数据 中 学 习 和 提取 特征 的 方法 , 不 需要 人 工 构 建 复杂 而 精确 的 物理 和 数学 模型 , 已 
在 数据 预测 和 分 类 领域 得 到 广泛 应 用 和 关注 。 
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Alarm prediction of complex refining process based on deep learning 


HAN Jiaqil, XU Zhinan2, FAN Meib?, CEN Peilin? 
(1 College of Mechanical and Electrical Engineering, Beijing University of Chemical Technology, Beijing 100029) 

Abstract: In recent years, with the rapid development of the chemical industry and information combination, the 
data produced in the chemical refining system presents explosive growth. Alarm system is a kind of transmitting 
equipment abnormal state information to the operator of the system, but if the design is not reasonable, the 
equipment under abnormal state process may produce a large number of alarm and alarm saturation phenomenon, 
the serious influence the operator's information processing ability, thus increasing the probability of all kinds of 
industrial accidents. Therefore, how to mine useful information from the massive alarm logs is very important, 
and use the mined information to give positive guidance to the complex refining process. Deep learning is a method 
that can automatically learn and extract features from data. It does not require manual construction of complex and 
accurate physical and mathematical models, so it has been widely applied and paid attention to in the field of data 
prediction and classification. 
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引 言 

报警 预测 是 指 利用 数据 分 析 和 算法 , 根据 历史 和 实时 的 信息 ,预测 未 来 可 能 发 生 的 危险 
事件 。 报警 预测 可 以 提高 报警 管理 的 效率 和 精度 ,使 得 复杂 炼 化 过 程 安全 性 提高 。 同 时 可 以 
促进 数据 共享 和 交流 ， 增 强 过 程 数 据 的 价值 。 目 前 报警 预测 大 多 基于 过 程 数据 ， 比 如 数字 报 
警 ， 这 类 报警 只 有 两 个 值 0 或 者 1)， 不 能 够 获取 有 价值 的 时 间 序 列 在 一 定 程度 上 限制 了 报 
警 预测 方法 。 而 基于 深度 学 习 的 算法 模型 的 输入 必须 是 数值 形式 的 计算 机 语言 ， 这 对 于 报警 
日 志文 本 非常 困难 , 需要 把 纯 文本 的 形式 转换 为 数值 形式 的 计算 机 语言 才能 够 利用 深度 学 习 

有 具 。 同 时 报警 日 志文 本 中 隐 含 了 关联 报警 信息 ， 如 何在 转化 的 同时 保留 这 一 特征 也 是 一 个 
难点 。 

为 了 解决 不 能 够 获取 有 价值 的 时 间 序 列 问题 ， 本 文 提 出 了 利用 知识 图 谱 以 及 深度 学 习 ， 
提出 了 一 种 基于 LSTM (Knowledge Graph-Long Short Term Memory) 的 复杂 炼 化 过 程 报警 预 
警方 法 。 传 统 的 时 间 序 列 预 测 在 实现 非 线性 建 模 方面 有 困难 ， 导 致 预测 精度 不 高 ， 而 深度 学 
习 可 以 很 好 的 解决 此 问题 。 


SSzae 旦 


1 全 究 青 景 

炼 化 行业 是 国家 发 展 的 重要 支柱 和 动力 源泉 , 在 我 国 的 现代 化 发 展 进程 中 发 挥 着 关键 作 
用 。 然 而 ， 炼 化 生产 过 程 复杂 ， 涉 及 的 危险 化 学 品种 类 繁多 ， 安 全 风险 较 高 ， 一 旦 设备 出 现 
过 程 故障 而 未 能 及 时 处 理 , 很 可 能 导致 系统 失 稳 , 从 而 对 人 员 的 生命 财产 安全 造成 严重 危害 。 
因此 ， 实 时 监测 炼 化 装置 的 运行 状态 ， 及 时 发 现 和 预防 故障 ， 对 提高 炼 化 系统 的 安全 性 县 有 
重要 意义 。 报 敖 日 志 是 炼 化 装置 运行 过 程 中 产生 的 重要 数据 源 ， 记 录 了 温度 、 压 力 、 流 量 等 
参数 以 及 报警 事件 和 操作 指令 等 过 程 信息 。 通 过 对 这 些 信息 的 分 析 和 挖掘 ， 可 以 实现 对 炼 化 
装置 的 故障 诊断 和 实时 状态 监测 ， 从 而 为 优化 工艺 控制 和 改善 安全 管理 提供 支持 。 

炼 化 行业 自动 化 水 平 的 日 渐 提 高 ， 尤 其 是 分 布 式 控制 系统 (Distributed Control System， 
DCS)、 先 进 过 程控 制 系统 (Advanced Process Control, APC) 以 及 数据 采集 与 监视 控制 系统 
CSupervisory Control And Data Acquisition, SCADA) 的 广泛 应 用 ， 使 得 复杂 炼 化 过 程 报警 装 
置 的 成 本 和 性 能 得 到 很 大 改善 。 随 着 计算 机 控制 水 平 的 进步 ， 复 杂 炼 化 过 程 正 向 着 规模 化 、 
精细 化 、 智 能 化 和 集成 化 的 方向 发 展 ， 大 幅度 减少 了 生产 过 程 中 的 人 工 干预 ,优化 了 设备 的 
可 靠 性 ,进一步 提升 了 炼 化 设备 设施 的 安全 管理 水 平 。 同 时， 复杂 炼 化 的 规模 化 和 集成 化 使 
得 过 程 数据 的 体 量 日 益 增 大 ， 函 需 借助 人 工 智能 技术 解决 人 力 处 理 效 率 不 足 的 问题 。 

人 工 智能 的 飞速 发 展 ， 让 大 数据 、 深 度 学 习 和 多 模 态 等 高 新 技术 焕发 出 新 的 活力 ， 知 识 
图 谱 作 为 其 中 的 重要 分 支 , 被 广泛 应 用 于 众多 领域 。 当 前 人 工 智能 正在 经 历 从 感知 智能 到 认 
知 智能 的 发 展 阶段 ， 而 认 知 智能 的 本 质 就 是 对 知识 的 获取 和 应 用 ， 知 识 图 谱 则 可 以 帮助 计算 
机 识别 人 类 知识 、 组 织 网 络 资源 ， 进 而 用 知识 赋 能 各 个 行业 的 智能 应 用 ， 例 如 搜索 引擎 、 智 
能 问答 、 推 荐 系统 、 自 然 语言 处 理 和 机 器 翻译 等 。 知 识 图 谱 及 其 知识 引擎 技术 作为 为 人 工 智 
能 系统 的 基础 ， 为 人 工 智 能 的 发 展 提 供 了 强大 的 支持 和 保障 。 


2 基本 理论 
2.1 词 嵌入 技术 

词 嵌 入 技术 是 一 种 将 自然 语言 中 的 词汇 映射 到 低 维 向 量 空间 的 技术 , 它 可 以 有 效 地 表示 
词汇 的 语义 和 语法 信息 ， 以 及 词汇 之 间 的 相似 性 和 关联 性 。 词 嵌入 技术 是 自然 语言 处 理 领 域 
的 基础 技术 ， 它 可 以 为 各 种 自然 语言 处 理 任 务 提 供 有 用 的 特征 ， 比 如 文本 分 类 、 命 名 实体 识 
别 、 情 感 分 析 、 机 器 翻译 、 文 本 生成 等 。 词 嵌入 技术 有 很 多 种 方法 ， 比 如 基于 计数 的 方法 、 
基于 预测 的 方法 、 基 于 神经 网 络 的 方法 等 。 其 中 ， 最 具 代 表 性 的 是 Word2Vec 和 Onehot 两 种 


方法 ， 它 们 分 别 利 用 了 局 部 上 下 文 和 全 局 统计 信息 来 学 习 词 向 量 。 词 嵌入 技术 是 人 工 智 能 领 
域 的 一 个 重要 研究 方向 ， 它 有 助 于 提高 自然 语言 处 理 的 效果 和 效率 ， 也 有 助 于 挖掘 自然 语言 
中 的 深层 次 知识 。 

Word2vec 是 一 种 基于 神经 网 络 的 词 内 入 模型 ， 它 可 以 使 用 一 个 双 层 的 神经 网 络 来 从 大 
规模 的 语料库 中 学 习 每 个 词语 的 n 维 向 量 表示 (n 是 嵌入 空间 的 维度 )。 这 种 模型 可 以 有 效 
地 利用 语料库 中 词语 的 局 部 上 下 文 信息 ,使 得 在 语料库 中 具有 高 频 共 现 关系 的 词语 ,在 嵌入 
空间 中 具有 较 高 的 余弦 相似 度 和 欧 氏 距离 。 这 样 ， 词 向 量 就 能 反映 出 词语 在 上 下 文中 的 语义 
和 语法 特征 。Word2vec 有 两 种 主要 的 训练 方法 , 分 别 是 连续 词 袋 模型 (CBOW) 和 跳 字 模型 
CSkip-gram)， 它 们 分 别 以 不 同 的 方式 利用 上 下 文 信息 来 预测 目标 词语 或 者 以 目标 词语 来 预 
测 上 下 文 信息 。 二 者 相 比 CBOW 模型 耗 时 更 短 ， 但 是 Skip-gram 在 表达 出 现 频次 较 少 的 词 
语 方面 表现 优异 。 由 于 报警 日 志 中 的 报警 序列 的 出 现 次 数 很 有 可 能 是 几 次 甚至 一 次 ， 选 用 
Skip-gram 模型 作为 词 嵌 入 模型 。Skip-gram 工作 原理 如 图 1 所 示 , 分 为 输入 层 (Inputlayer)、 
投影 层 (Projection layer)、 输 出 层 (Output layer)。 
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图 1 Skip-gram 模型 原理 图 


2.2 长 短 时 记忆 网 络 

长 短 时 记忆 网 络 (Long Short-Term Memory, LSTM) 是 一 种 特殊 的 循环 神经 网 络 
(Recurrent Neural Network, RNN )， 可 有 效 地 解决 循环 神经 网 络 在 处 理 长 序列 时 过 到 的 梯度 
消失 和 梯度 爆炸 的 问题 。 目 前 长 短期 记忆 网 络 模型 是 适用 最 为 广泛 的 循环 神经 网 络 模型 ， 与 
标准 循环 神经 网 络 模型 相 比 ,长 短期 记忆 网 络 可 更 好 地 对 长 时 依赖 关系 进行 表达 。 如 图 2 所 
示 , 是 一 个 典型 循环 神经 网 络 的 结构 原理 图 , 包含 输入 层 (Inputlayer)、 隐 含 层 (Hidden layer)、 


循环 层 (Cycle layer)、 输 出 层 COutputlayer)， 每 个 时 间 步 接收 一 个 输入 ， 并 输出 一 个 输出 ， 
同时 将 自身 的 隐藏 状态 传递 给 下 一 个 时 间 步 。 这 样 ， 循 环 神经 网 络 可 以 利用 隐藏 状态 来 存储 
和 利用 序列 中 的 历史 信息 ， 从 而 实现 对 序列 的 建 模 。 
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图 2 循环 神经 网 络 图 


长 短 时 记忆 网 络 的 核心 思想 是 引入 了 一 个 称 为 记忆 单元 Memory cell) 的 结构 ， 它 可 以 
存储 和 更 新 长 期 的 信息 ， 以 及 通过 三 个 门 控 机 制 〈 输 入 门 、 遗 筷 门 和 输出 门 ) 来 控制 信息 的 
流动 。 长 短期 记忆 网 络 可 以 学 习 到 序列 中 不 同时 间 步 之 间 的 长 期 依赖 关系 ， 从 而 提高 了 序列 
建 模 的 能 力 。 长 短期 记忆 网 络 是 自然 语言 处 理 \ 语 音 识别 、 图 像 生 成 等 领域 的 一 个 重要 技术 ， 
它 为 各 种 序列 到 序列 的 任务 提供 了 强大 的 模型 , 也 为 后 续 的 深度 学 习 模 型 提供 了 灵感 和 基础 。 
如 图 3 所 示 ， 是 一 个 典型 的 长 短期 记忆 网 络 网 络 结构 图 ， 具 有 一 个 输入 层 、 一 个 输出 层 及 两 
个 在 时 间 维 度 上 展开 五 步 的 隐藏 层 。 
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图 3 双 隐 层 长 短期 记忆 网 络 模型 〈 时 间 步 长 为 5) 
长 短期 记忆 网 络 一 个 典型 应 用 就 是 预测 文本 的 下 一 个 单词 ， 如 图 3 所 示 ， 对 于 每 个 词语 
来 说 ， 与 之 相 邻 的 词语 是 我 们 的 期 望 目 标 。 例 如 ， 图 3 中 输入 “ 叫 ” 预测 得 到 的 期 望 输出 
为 “西安 ”。 长 短期 记忆 网 络 充分 利用 前 面 的 词语 西安”“ 以 前 ””“ 的 ””“ 名 字 ”) 的 信息 


以 提高 预测 结果 的 准确 性 。 

记忆 单元 (长 短期 记忆 网 络 单元 ) 的 核心 是 记忆 单元 ， 它 可 以 在 整个 链条 中 传递 信息 ， 
同时 受到 四 个 门 的 控制 : 遗 筷 门 、 输 入 、 输 出 门 和 更 新 门 。 遗 态 门 决定 了 上 一 个 记忆 带 的 哪 
些 信息 被 留 下 或 抛弃 ; 输入 门 决 定 了 当前 输入 的 哪些 信息 被 收纳 到 记忆 禹 中 ; 输出 门 决定 了 
记忆 带 的 哪些 信息 被 释放 为 隐藏 状态 ; 更 新 门 决 定 了 记忆 带 的 哪些 信息 被 刷新 为 新 的 候选 值 。 

此 外 ,许多 学 者 对 长 短期 记忆 网 络 模 型 进行 了 深入 研究 ， 其 在 自然 语言 处 理 领 域 成 果 颇 
丰 如 ， 机 器 翻译 ,语音 识别 及 笔迹 识别 。 基 于 其 在 自然 语言 处 理 上 的 成 功 应 用 (尤其 是 预测 
句子 中 的 下 一 单词 )， 本 文 将 采用 长 短期 记忆 网 络 模型 对 过 程 报警 进行 预测 。 


3 方法 步骤 

第 一 步 ， 数 据 清洗 。 数 据 的 输入 形式 很 大 程度 上 决定 了 模型 的 处 理 效果 ， 在 第 三 章 知识 
三 元 组 的 基础 上 将 时 间 属 性 提取 出 来 ， 再 对 原本 的 数据 集 进行 清洗 。 将 知识 三 元 组 中 的 中 文 
转 为 英文 ， 利 用 NLTK 对 英文 进行 直接 分 词 ， 获 得 一 个 报警 序列 。 一 个 报警 序列 的 构成 为 
“时 间 + 位 号 + 具体 设备 + 涉及 因素 + 报警 等 级 ”(“time + main + specific + factor +level”)。 清 
洗 后 的 数据 作为 Skip-gram 模型 的 输入 获得 报警 词 向 量 。 

第 二 步 ， 构 建 报警 序列 词 向 量 。 将 报警 序列 输入 Skip-gram 模型 得 到 相应 时 间 序 列 的 词 
向 量 。 通 过 设置 合适 的 窗口 等 参数 得 到 最 优 的 词 向 量 模型 。 

第 三 步 ， LSTM 训练 。 将 得 到 的 词 向 量 模型 作为 神经 网 络 模型 的 输入 ， 知 识 驱 动 的 长 短 
期 记忆 网 络 模型 (Knowledge Graph-Long Short-Term Memory) 由 两 层 组 成 ， 第 一 层 是 一 个 循 
环 神 经 网 络 层 ， 可 以 处 理 输入 的 时 间 序 列 数据 ， 并 输出 80 维 的 向 量 。 这 个 层 使 用 了 dropout 
来 防止 过 拟 合 ， 也 使 用 了 bias 来 增强 记忆 能 力 。 第 二 层 是 一 个 全 连接 层 ， 可 以 将 80 维 的 向 
量 映射 到 一 个 标量 ， 作 为 预测 值 。 这 个 层 使 用 了 线性 激活 函数 ， 以 保持 输出 的 连续 性 。 模 型 
使 用 平均 绝对 误差 和 均 方 误差 作为 损失 函数 ， 使 用 Adam 作为 优化 器 。 平均 绝 对 误差 和 均 方 
误差 可 以 衡量 预测 值 和 真实 值 之 间 的 差距 ，Adam 可 以 自 适应 地 调整 学 习 率 和 动量 ， 以 加 速 
收敛 过 程 。 模 型 结构 可 以 参考 图 3。 实现 报警 预测 的 步骤 如 图 4 所 示 。 
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各 个 报警 序列 Alarm (i) (i=1,2,...n) 概率 分 布 
Alarm(1) Alarm(2) Alarm(n-1) Alarm(n) 
EU P(2) P(n-1) P(n) 


图 4 报警 预测 示例 


4 ”案例 分 析 
以 某 柴油 加 氧 装置 报警 日 志 作 为 分 析 案 例 ， 运 用 LSTM 报警 预测 方法 。 
4.1 报警 日 志 预 处 理 
文本 清洗 〈 将 报警 日 志 中 无 意义 的 数字 或 字母 、 非 文本 数据 等 影响 分 类 效果 或 降低 运算 
速度 的 不 利 因素 去 除 ， 如 消除 宛 余 拌 振 报警 )。 表 1 为 某 柴 油 加 氧 装置 报警 日 志 的 部 分 原始 
文本 数据 ， 它 提供 了 报警 名 称 、 报 警 等 级 、 报 警 描述 、 时 间 惟 等 有 用 信息 ， 同 时 里 面 也 包含 
一 些 无 用 信息 ， 如 数据 区 信息 等 。 
表 1 某 柴 油 加 氧 装置 报警 日 志 原 始 文本 数据 表 
序 报警 数据 位 号 报警 内 容 优先 
号 时 间 区 名 描述 级 
1 13-01-25 12:00:43 ”0 区 TI7402 2B P1001B 轴承 温度 HI 0 
2 13-01-25 11:37:52 0 区 TI7402B P1001B 轴承 温度 HI 0 
3 13-01-25 04:19:49 0 区 FIQ3315.VAL 循环 水 流量 L0 0 
4 13-01-25 11:09:28 0 区 TRC3203 空冷 A3002 出 口 温 控 L0 0 
5 13-01-0721:22:38 ”0 区 TRC3105 空冷 A3001 出 口 温 控 L0 0 
6 13-01-24 22:36:22 ”0 区 PIA3053D C1002A 供 油 总 管 压力 L0 0 
了 13-01-24 22:30:29 ”0 区 TI4053 瓦斯 气温 度 LL 0 


8 13-01-24 22:30:28 ”0 区 TI4053 瓦斯 气温 度 L0 0 
9 13-01-24 22:01:21 “0 区 TI3305 非 净 化 压缩 气 进 装置 温度 LL 0 
10 13-01-24 22:01:19 0 区 TI3305 非 净 化 压缩 气 进 装置 温度 L0 0 
11 13-01-24 15:28:44 ”0 区 PI3117.VAL P1001C 出 口 流 量 HI 0 
12 13-01-24 15:27:37 0 区 PI3117.VAL P1001C 出 口 流 量 HH 0 
13 13-01-24 15:14:44 ”0 区 FR3105 氧气 流量 L0 0 
14 13-01-24 15:08:19 ”0 区 FRC3101.VAL 泵 P1001A,B 出 口 流 控 HI 0 
15 13-01-24 14:54:48 ”0 区 LICA3203 铅 V1007 界 控 L0 0 
16 13-01-24 14:45:20 ”0 区 FI3117.VAL P1001C 出 口 流 量 L0 0 
17 13-01-24 14:18:49 0 区 LICA3203 铅 V1007 界 控 HI 0 
18 13-01-24 13:47:58 -0 区 TRC3208 换 E1004 出 口 温 控 HI 0 
19 13-01-24 10:44:47 0 区 FI13117.VAL P1001C 出 口 流量 LL 0 


表 2 为 人 煤油 加 氢 装 置 报警 日 志 的 进行 清洗 处 理 后 的 结果 , 可 以 看 出 清洗 过 后 信息 更 为 
简洁 集中 ,清洗 后 的 数据 对 应 了 知识 图 谱 中 的 若干 三 元 组 ,将 报警 描述 转换 为 英文 在 模型 训 
练 时 表现 出 更 好 的 算 力 ， 直 接 调用 NLTK 即 可 ， 不 需要 通过 Jieba 分 词 工具 调用 停 用 词 词典 
和 用 户 自 定义 词典 。 


表 2 某 柴油 加 氧 装置 报警 日 志 数据 清洗 表 


号 时 间 各 位 号 0 等 级 
1 2013/1/25 12:00 TI7402B P1001B temperature HI 
2 2013/1/25 4:19 FIQ3315.VAL circulating water flow LO 
3 2013/1/25 11:09 TRC3203 A3002 temperature control LO 
4 2013/1/7 21:22 TRC3105 A3001 temperature control LO 
5 2013/1/2422:36 PIA3053D C1002A pressure LO 
6 2013/1/24 22:30 TI4053 gas temperature LL 
7 2013/1/24 22:30 TI4053 gas temperature LO 
8 2013/1/24 22:01 TI3305 unpurified compressed gas temperature Ll 
9 2013/1/24 22:01 TI3305 unpurified compressed gas temperature LO 
10 2013/1/24 15:28 PI3117.VAL P1001C flow HI 
4.2 词 嵌 入 建 模 


使 用 Skip-gram 模型 来 学 习 每 个 报警 变量 的 向 量 表示 ， 可 以 捕捉 到 报警 变量 之 间 的 语义 
和 语法 关系 。 使 用 Gensim 这 个 高 效 的 Python 库 来 训练 Skip-gram 模型 ， 它 需要 把 每 个 报警 
序列 作为 输入 ， 每 个 序列 由 按时 间 顺 序 排列 的 报警 变量 组 成 。Skip-gram 模型 会 自动 地 将 每 
个 报警 变量 映射 到 一 个 刁 维 的 向 量 空间 中 ， 从 而 得 到 一 个 嵌入 矩阵 ， 大 小 为 sx 姻 ， 其 中 * 报 


由 


警 变量 类 型 的 个 数 ， 寻 为 能 入 空间 的 维度 。 此 处 将 报警 日 志 数 据 变量 通过 辐 量 化 变 为 123 个 
80 维 的 癌 量 。Skip-gram 模型 训练 过 程 参数 见 表 2。 


表 3 Skip-gram 模型 参数 


参数 名 参数 值 
Vector_Slze 80 
windows 4 
Epoch 100 
Min_count 1 
Workers 10 
Negative 30 


4.3LSTM 预测 

TensorFlow 是 一 个 开源 的 软件 库 ， 它 可 以 利用 数据 流 图 来 进行 高 效 的 数值 计算 。 数 据 流 
图 是 一 种 有 向 图 ， 其 中 每 个 节点 表示 一 个 数学 运算 ， 每 条 边 表示 一 个 多 维 数组 。TensorFlow 
提供 了 一 个 灵活 的 API， 可 以 让 用 户 根据 需要 ， 将 计算 任务 分 配 到 不 同 的 设备 上 执行 ， 例 如 
桌面 、 服 务 器 或 移动 设备 中 的 CPU 或 GPU。 这 样 可 以 提高 计算 效率 和 并 行 性 。TensorFlow 
在 机 器 学 习 或 深度 学 习 的 网 络 研究 中 有 着 广泛 的 应 用 , 它 可 以 支持 多 种 类 型 的 网 络 结构 和 算 


痉 。 


本 文 使 用 Python 语言 和 TensorFlow 软件 包 来 构建 长 短期 记忆 网 络 模型 ， 该 模型 是 一 种 
循环 神经 网 络 ， 它 可 以 处 理 时 序数 据 ， 并 具有 长 期 记忆 能 力 。 长 短期 记忆 网 络 模型 要 求 输入 
数据 是 实数 或 者 数字 化 数据 ， 因 此 本 文 使 用 报警 向 量 作为 训练 数据 。 报 警 向 量 是 通过 Skip- 
gram 模型 从 报警 序列 中 学 习 得 到 的 ， 它 可 以 反映 报警 变量 之 间 的 语义 和 语法 关系 。 本 文 设 
定 长 短期 记忆 网 络 模型 的 步 长 为 ， 即 以 个 报警 向 量 作 为 输入 ， 预 测 第 个 报警 向 量 。 这 样 
可 以 实现 对 报警 序列 的 预测 和 分 析 。 本 文 还 对 长 短期 记忆 网 络 模型 的 其 他 参数 ， 如 向 量 嵌 入 
的 维度 、 训 练 批 次 量 等 进行 了 合理 的 设置 和 调整 ， 以 提高 模型 的 性 能 和 准确 度 ， 得 到 了 不 错 
的 模型 。 有 具体 参数 见 表 3。 


表 3 长 短期 记忆 网 络 模型 参数 


参数 名 参数 值 
Stepstime n 
Optimezer Adam 


Loss Mae/MSe 


Epoch 
Batch_size 
LSTM 遗忘 设置 
Dropout 概率 


100 
72 
0.1 
0.2 


长 短期 记忆 网 络 模 型 由 两 层 组 成 ,第 一 层 是 一 个 循环 神经 网 络 层 ,可 以 处 理 输入 的 时 间 


序列 数据 ， 并 输出 80 维 的 向 量 。 这 个 层 使 用 了 Dropout 来 防止 过 拟 合 ， 也 使 用 了 bias 来 增 
强 记忆 能 力 。 第 二 层 是 一 个 全 连接 层 ， 可 以 将 80 维 的 向 量 映射 到 一 个 标量 ， 作 为 预测 值 。 


这 个 层 使 用 了 线性 激活 函数 ， 以 保持 输出 的 连续 性 。 模 型 使 用 平均 绝对 误差 作为 损失 函数 ， 
使 用 Adam 作为 优化 器 。 平 均 绝 对 误差 可 以 衡量 预测 值 和 真实 值 之 间 的 差距 ，Adam 可 以 自 


适应 地 调整 学 习 率 和 动量 ， 以 加 速 收敛 过 程 。 
对 比 不 同步 长 下 的 预测 结果 如 下 : 


(1) 损失 函数 选择 mse, 步 长 n=5、6、7、8。 因为 数据 较 少 的 原因 选择 训练 轮 次 为 100， 


不 同步 长 下 的 损失 对 比 见 表 4。 可 以 看 出 训练 集 的 损失 稳定 在 10-6 量 级 , 验证 集 的 损失 稳定 


在 10-5 量 级 ; 随 着 步 长 的 增加 训练 集 和 验证 集 的 损失 均 有 下 幅度 下 降 ， 但 很 小 ， 图 5 展示 
了 不 同步 长 下 的 损失 曲线 ,发 现 曲线 在 训练 轮 次 很 小 的 时 候 就 收敛 了 ,之 后 出 现 了 周期 性 的 


波动 ， 但 是 总 体 loss 呈现 下 降 趋 势 并 趋 于 稳定 。 


表 4 mse 下 不 同步 长 损失 对 比 


步 长 Loss 
5 9.5781e-06 
6 9.5548e-06 
9.5548e-06 
8 9.3899e-06 


(a) 步 长 为 5 


Val_loss 
1.0571e-05 
1.2415e-05 
1.2415e-05 
1.0478e-05 


加 N w » u o |] om 


(b) 步 长 为 6 


加 N Ww » wm oa ~ mm vw 


(c) 步 长 为 7 Cd) 步 长 为 8 
图 5 mse 下 不 同步 长 对 比 


(2) 损失 函数 选择 ame， 步 长 n=5、6、7、8. 不 同步 长 下 的 损失 对 比 见 表 5。 可 以 看 出 
训练 集 的 损失 稳定 在 0.0024 左右 ， 验 证 集 的 损失 稳定 在 0.0026 左右 ; 随 着 步 长 的 增加 训练 
集 和 验证 集 的 损失 均 有 下 幅度 下 降 ， 但 很 小 ; 图 6 展示 了 不 同步 长 下 的 损失 曲线 ， 发 现 曲线 
在 训练 轮 次 很 小 的 时 候 就 收敛 了 ,之 后 出 现 了 周期 性 的 波动 ,但 是 总 体 loss 呈现 下 降 趋 势 并 
趋 于 稳定 。 


表 5 mae 下 不 同步 长 损失 对 比 


步 长 Loss Val loss 
§ 0.0024 0.0025 
6 0.0024 0.0028 
2 0.0024 0.0026 
8 0.0024 0.0026 
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0.006 1 
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0.004 
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(a) 步 长 为 5$ (b) 步 长 为 6 
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0.008 


0.006 0.0071 
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(c) 步 长 为 7 Cd) 步 长 为 8 
图 6 mae 下 不 同步 长 对 比 


得 到 训练 完成 的 长 短期 记忆 网 络 模型 (将 表 2 数据 的 2/3 作为 训练 集 ，1/3 作为 输入 进 
行 预测 )， 将 数据 导入 长 短期 记忆 网 络 模型 进行 预测 得 到 如 下 所 示 的 预测 报警 词 向 量 ， 准 确 
率 为 85.6% 


[-1.3352952e-03，-1.9064330e-03，-5.2710669e-04，-3.7935303e-04，-5.3319125e-04，- 
4.3719827e-04，-1.0022228e-03，3.2839790e-04，4.3338679e-04，8.1800204e-04，2.8444192e- 
04,1.1373374e-03，1.611978Se-03，2.3732133e-03，2.3200394e-03，2.1843203e-03，2.3808737e- 
03, 2.5722622e-03, 2.9517047e-03, 2.6353092e-03, 1.2544806e-03, 1.2108956e-03, 1.1859352e- 
03, 1.3071689e-03, 1.3748782e-03, 1.4311392e-03, 1.2827201e-03, 1.8794824e-03, 1.8889243e- 
03，2.3909144e-03，2.7460307e-03，2.3870482e-03] 


4.4 可 视 化 处 理 


在 得 到 的 预测 结果 的 词 向 量 的 基础 上 ， 调 用 保存 的 词 向 量 模型 ， 反 向 搜索 与 其 相似 度 最 
高 的 文本 词 ， 确 定 下 一 个 报警 最 可 能 发 生 的 位 置 ， 即 得 到 位 号 。5.4.3 节 得 到 的 预测 结果 对 应 
的 位 号 如 图 7 所 示 。“FRA3101” 的 概率 为 0.2875,“FRC3212” 的 概率 为 0.2717， 二 者 相差 
不 大 。 从 安全 的 角度 考虑 ， 将 二 者 都 作为 预测 结果 返回 报警 日 志 进 行 搜索 。 


FRA3101 0.287538 


FRC3212 0.27 
图 7 预测 结果 示例 
如 图 8 所 示 ， 通 过 位 号 确定 可 能 发 生 的 具体 报警 描述 ， 在 知识 图 谱 上 进行 可 视 化 。 内 容 


包括 了 位 号、 具体 设备 、 涉 及 因素 、 报 警 等 级 四 个 要 素 。 当 输入 不 同 的 、 更 大 体 量 的 报警 序 


列 时 ， 这 种 对 比 将 更 加 突出 ， 通 过 对 应 色 块 数量 的 直观 数量 感受 可 以 很 快 的 分 辨 出 危险 度 较 
高 的 设备 节点 ， 从 而 达到 优化 报警 管理 的 目的 。 


5 结论 

本 文 针对 报警 预测 这 一 重要 的 工业 应 用 问题 , 提出 了 一 种 基于 长 短 时 记忆 网 络 的 报警 预 
测 方法 。 利 用 知识 图 谱 的 结构 和 语义 信息 ， 对 报警 序列 进行 了 丰富 和 标准 化 的 表示 。 然 后 ， 
将 报警 序列 中 的 每 个 词 通过 Word2Vec 骨 入 算法 转换 为 低 维 稠密 向 量 ， 作 为 长 短期 记忆 网 络 
模型 的 输入 。 

长 短期 记忆 网 络 模 型 是 一 种 能 够 处 理 时 序数 据 的 循环 神经 网 络 , 它 能 够 学 习 报警 序列 中 
的 长 短期 依赖 关系 ， 并 根据 当前 的 输入 和 历史 状态 ， 预测 下 一 个 可 能 发 生 的 报警 。 为 了 提高 
预测 性 能 ， 并 通过 实验 对 比 了 不 同步 长 下 损失 函数 的 收敛 速度 和 波动 情况 ,选择 了 最 优 的 步 
长 参数 。 本 文通 过 在 真实 的 工业 数据 集 上 进行 了 大 量 的 实验 ,验证 了 该 方法 在 报警 预测 任务 
上 的 有 效 性 和 优越 性 ， 为 故障 诊断 和 预防 提供 了 有 价值 的 参考 。 将 预测 所 得 的 结果 加 入 知识 
图 谱 中 ， 完 成 了 知识 图 谱 的 演化 ， 并 将 预测 节 区 别 于 原本 的 节点 ,使 得 知识 图 谱 结 构 更 加 完 
着 


长 短期 记忆 网 络 模型 比较 单一 , 在 其 基础 上 演化 出 BiLSTM 等 一 众 衍生 模型 ， 通 过 更 优 
模型 可 增加 模型 预测 准确 率 和 预测 的 效果 ， 这 样 知 识 图 谱 的 演化 效果 更 佳 。 


